Évolution des architectures de MLLM : du centrage sur la vision à l'intégration multi-sensorielle

Évolution des architectures de MLLM

L'évolution des grands modèles linguistiques multimodaux (MLLM) marque un changement par rapport aux silos spécifiques à chaque modalité versespaces de représentation unifiés, où les signaux non textuels (images, sons, 3D) sont traduits dans un langage que le modèle linguistique comprend.

1. Du visuel à l'approche multi-sensorielle

Premiers MLLM :Se concentrent principalement sur les transformateurs visuels (ViT) pour les tâches image-texte.
Architectures modernes :Intègrent audio (par exemple, HuBERT, Whisper) et nuages de points 3D (par exemple, Point-BERT) afin d'atteindre une intelligence véritablement transmodale.

2. Le pont de projection

Pour relier différentes modalités au modèle linguistique, un pont mathématique est nécessaire :

Projection linéaire :Une correspondance simple utilisée dans les premiers modèles comme MiniGPT-4.
$$X_{llm} = W \cdot X_{modality} + b$$
MLP à plusieurs couches :Une approche en deux couches (par exemple, LLaVA-1.5) offrant une meilleure alignement des caractéristiques complexes grâce à des transformations non linéaires.
Rééchantillonneurs/Abstracter :Outils avancés comme le rééchantillonneur Perceiver (Flamingo) ou le Q-Former qui condensent les données haute dimensionnelle en jetons de longueur fixe.

3. Stratégies de décodage

Jetons discrets :Représenter les sorties comme des entrées spécifiques dans un dictionnaire (par exemple, VideoPoet).
Embeddings continus :Utiliser des signaux « doux » pour guider des générateurs spécialisés en aval (par exemple, NExT-GPT).

La règle de projection

Pour qu'un modèle linguistique traite un son ou un objet 3D, le signal doit être projeté dans l'espace sémantique existant du modèle, afin qu'il soit interprété comme un « signal de modalité » plutôt que comme du bruit.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

Which projection technique is generally considered superior to a simple Linear layer for complex modality alignment?

Token Dropping

Two-layer MLP or Resamplers (e.g., Q-Former)

Softmax Activation

Linear Projection

Question 2

What is the primary role of ImageBind or LanguageBind in this architecture?

To generate text from images

To compress video files

To create a Unified/Joint representation space for multiple modalities

To increase the LLM context window

Challenge: Designing an Any-to-Any System

Diagram the flow for an MLLM that takes an Audio input and generates a 3D model.

You are tasked with architecting a pipeline that allows an LLM to "listen" to an audio description and output a corresponding 3D object. Define the three critical steps in this pipeline.

Step 1

Select the correct encoder for the input signal.

Solution:
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.

Step 2

Apply a Projection Layer.

Solution:
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).

Step 3

Generate and Decode the output.

Solution:
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.